Dữ liệu là gì? Các công bố khoa học về Dữ liệu

Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hìn...

Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hình ảnh, âm thanh, video hoặc bất kỳ định dạng nào khác. Dữ liệu được sử dụng để phân tích, xử lý, lưu trữ, truyền tải hay sử dụng cho mục đích nghiên cứu, quản lý và ra quyết định.
Dữ liệu là một tập hợp các thông tin và thông số có thể thu thập được từ nhiều nguồn khác nhau. Nó có thể tồn tại dưới nhiều dạng khác nhau như văn bản, số, hình ảnh, âm thanh, video, tệp tin hoặc cơ sở dữ liệu.

Dữ liệu có thể thu thập từ nhiều nguồn khác nhau như các cuộc khảo sát, thí nghiệm, hồ sơ bệnh án, truy vấn cơ sở dữ liệu, thiết bị cảm biến, mạng xã hội, trang web, v.v. Dữ liệu thu thập có thể là dữ liệu số (như số liệu thống kê, thông tin tài chính, dữ liệu khoa học) hoặc dữ liệu phi số (như văn bản, hình ảnh).

Dữ liệu đóng vai trò quan trọng trong nhiều lĩnh vực và hoạt động khác nhau. Chẳng hạn, trong lĩnh vực kinh doanh, dữ liệu được sử dụng để phân tích thị trường, dự đoán xu hướng, tối ưu hóa quy trình sản xuất và quản lý khách hàng. Trong lĩnh vực y tế, dữ liệu giúp theo dõi sức khỏe cá nhân, nghiên cứu bệnh lý và cải thiện chẩn đoán và điều trị.

Dữ liệu có thể được xử lý, phân tích, lưu trữ và truyền tải bằng cách sử dụng các phương pháp và công nghệ phổ biến như máy tính, cơ sở dữ liệu, các ngôn ngữ lập trình, học máy và trí tuệ nhân tạo. Công nghệ thông tin và khoa học dữ liệu đã phát triển nhanh chóng trong thời gian gần đây, mở ra nhiều cơ hội mới cho khai thác và sử dụng dữ liệu.
Dữ liệu có hai loại cơ bản là dữ liệu cấu trúc và dữ liệu phi cấu trúc.

Dữ liệu cấu trúc là dữ liệu có tổ chức rõ ràng và được tổ chức thành các bảng, hàng và cột. Dữ liệu cấu trúc thường được lưu trữ trong các cơ sở dữ liệu quan hệ và có thể truy vấn bằng ngôn ngữ truy vấn SQL. Ví dụ về dữ liệu cấu trúc bao gồm dữ liệu học sinh trong một trường học, dữ liệu bán hàng của một cửa hàng, hoặc dữ liệu tài chính của một công ty.

Dữ liệu phi cấu trúc là dữ liệu không có cấu trúc định sẵn và không tổ chức theo mô hình bảng hay cột. Ví dụ về dữ liệu phi cấu trúc bao gồm văn bản, email, tệp tin đa phương tiện (hình ảnh, video, âm thanh), dữ liệu từ các mạng xã hội và các trang web. Dữ liệu phi cấu trúc thường phức tạp hơn và khó khai thác hơn dữ liệu cấu trúc. Để phân tích và sử dụng dữ liệu phi cấu trúc, thường cần sử dụng các công cụ và kỹ thuật xử lý dữ liệu phi cấu trúc như xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và học máy.

Dữ liệu cũng có đặc điểm về ý nghĩa (semantic) và chất lượng (quality). Ý nghĩa của dữ liệu liên quan đến sự hiểu biết và nghĩa vụ của dữ liệu, bao gồm cú pháp, ngữ nghĩa và tác động của dữ liệu lên ngữ cảnh sử dụng. Chất lượng của dữ liệu bao gồm độ chính xác, độ hoàn thiện, tính nhất quán, tính sẵn có và độ tin cậy của dữ liệu.

Dữ liệu cũng có thể được phân loại dựa trên quy mô, độ lớn và tính phân tán. Điều này liên quan đến cách dữ liệu được tổ chức và xử lý. Dữ liệu có thể được phân thành dữ liệu nhỏ (small data), dữ liệu lớn (big data), dữ liệu phân tán (distributed data), v.v.

Dữ liệu là yếu tố cơ bản để đưa ra quyết định thông minh và phát triển các ứng dụng học máy và trí tuệ nhân tạo. Quá trình thu thập, lưu trữ, quản lý và xử lý dữ liệu được gọi là quy trình dữ liệu (data pipeline).

Các bài báo, nghiên cứu, công bố khoa học về chủ đề dữ liệu:

Trimmomatic: một công cụ cắt linh hoạt cho dữ liệu chuỗi Illumina Dịch bởi AI
Bioinformatics - Tập 30 Số 15 - Trang 2114-2120 - 2014
Tóm tắt Động lực: Mặc dù đã có nhiều công cụ xử lý dữ liệu đọc từ giải trình tự thế hệ mới (NGS), chúng tôi vẫn không tìm thấy công cụ nào hoặc sự kết hợp của các công cụ đáp ứng yêu cầu của chúng tôi về tính linh hoạt, khả năng xử lý chính xác dữ liệu cặp đầu và hiệu suất cao. Chúng tôi đã phát triển Trimmomatic như một công cụ xử lý dữ liệu đầu vào...... hiện toàn bộ
MEGA7: Phân Tích Di Truyền Phân Tử Phiên Bản 7.0 cho Dữ Liệu Lớn Hơn Dịch bởi AI
Molecular Biology and Evolution - Tập 33 Số 7 - Trang 1870-1874 - 2016
Tóm tắt Chúng tôi giới thiệu phiên bản mới nhất của phần mềm Phân Tích Di Truyền Phân Tử (MEGA), bao gồm nhiều phương pháp và công cụ tinh vi cho phân loại gen và y học phân loại. Trong lần nâng cấp lớn này, MEGA đã được tối ưu hóa để sử dụng trên các hệ thống máy tính 64-bit nhằm phân tích các tập dữ liệu lớn hơn. Các nhà nghiên cứu giờ đây có thể k...... hiện toàn bộ
#MEGA #phân tích di truyền #phân loại gen #y học phân loại #dữ liệu lớn #phần mềm khoa học
edgeR: một gói Bioconductor cho phân tích biểu hiện khác biệt của dữ liệu biểu hiện gen số Dịch bởi AI
Bioinformatics - Tập 26 Số 1 - Trang 139-140 - 2010
Tóm tắt Tóm tắt: Dự kiến các công nghệ biểu hiện gen số (DGE) mới nổi sẽ vượt qua công nghệ chip vi thể trong tương lai gần cho nhiều ứng dụng trong gen học chức năng. Một trong những nhiệm vụ phân tích dữ liệu cơ bản, đặc biệt cho các nghiên cứu biểu hiện gen, liên quan đến việc xác định liệu có bằng chứng cho thấy sự khác biệt ở số lượng của một bả...... hiện toàn bộ
Suy diễn Cấu trúc Dân số Sử dụng Dữ liệu Genotype Đa Locus Dịch bởi AI
Genetics - Tập 155 Số 2 - Trang 945-959 - 2000
Tóm tắtChúng tôi mô tả một phương pháp phân nhóm dựa trên mô hình để sử dụng dữ liệu genotype đa locus nhằm suy diễn cấu trúc dân số và phân bổ cá thể vào các quần thể. Chúng tôi giả định một mô hình trong đó có K quần thể (K có thể không được biết), mỗi quần thể được đặc trưng bởi một tập hợp các tần số allele tại mỗi locus. Các cá thể trong mẫu được phân bổ (về m...... hiện toàn bộ
MrBayes 3: Suy luận phát sinh loài Bayesian dưới các mô hình hỗn hợp Dịch bởi AI
Bioinformatics - Tập 19 Số 12 - Trang 1572-1574 - 2003
Tóm tắt Tóm lược: MrBayes 3 thực hiện phân tích phát sinh loài Bayesian kết hợp thông tin từ các phần dữ liệu hoặc các phân tập khác nhau tiến hóa dưới các mô hình tiến hóa ngẫu nhiên khác nhau. Điều này cho phép người dùng phân tích các tập dữ liệu không đồng nhất bao gồm các loại dữ liệu khác nhau—ví dụ: hình thái, nucleotide và protein—và khám phá...... hiện toàn bộ
#phân tích phát sinh loài Bayesian #mô hình hỗn hợp #dữ liệu không đồng nhất #song song hóa #phát sinh loài
Phương Trình Dạng Khép Kín Dự Báo Độ Dẫn Thủy Lực của Đất Không Bão Hòa Dịch bởi AI
Soil Science Society of America Journal - Tập 44 Số 5 - Trang 892-898 - 1980
Tóm tắtMột phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(h), được giới thiệu trong bài báo này. Dạng cụ thể của phương trình này cho phép đưa ra các biểu thức phân tích dạng khép kín cho độ dẫn thủy lực tương đối, Kr, khi thay thế vào các mô hình độ dẫn...... hiện toàn bộ
#Herardic #độ dẫn thủy lực #đường cong giữ nước đất #lý thuyết Mualem #mô hình dự đoán #độ dẫn thủy lực không bão hòa #dữ liệu thực nghiệm #điều chỉnh mô hình #đặc tính thủy lực giấy phép.
Bộ công cụ phân tích bộ gen: Một khung MapReduce cho việc phân tích dữ liệu giải trình tự DNA thế hệ tiếp theo Dịch bởi AI
Genome Research - Tập 20 Số 9 - Trang 1297-1303 - 2010
Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó ...... hiện toàn bộ
#khoa học #giải trình tự DNA #Bộ Gen 1000 #GATK #MapReduce #phân tích bộ gen #sự biến dị di truyền #công cụ NGS #phân giải song song #SNP #Atlas Bộ Gen Ung thư
Đo Lường Các Tính Chất Đàn Hồi và Độ Bền Nội Tại của Graphene Dạng Đơn Lớp Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 321 Số 5887 - Trang 385-388 - 2008
Chúng tôi đã đo lường các đặc tính đàn hồi và độ bền phá vỡ nội tại của màng graphene dạng đơn lớp tự do bằng phương pháp nén nano trong kính hiển vi lực nguyên tử. Hành vi lực-chuyển vị được diễn giải theo khung phản ứng ứng suất-biến dạng đàn hồi phi tuyến và cho ra độ cứng đàn hồi bậc hai và bậc ba lần lượt là 340 newton trên mét (N m\n –1\n ...... hiện toàn bộ
#graphene #tính chất đàn hồi #độ bền phá vỡ #nén nano #kính hiển vi lực nguyên tử #ứng suất-biến dạng phi tuyến #mô đun Young #vật liệu nano #sức mạnh nội tại
VESTA 3 cho trực quan hóa ba chiều dữ liệu tinh thể, thể tích và hình thái Dịch bởi AI
Journal of Applied Crystallography - Tập 44 Số 6 - Trang 1272-1276 - 2011
VESTA là một hệ thống trực quan hóa ba chiều dành cho nghiên cứu tinh thể học và tính toán trạng thái điện tử. Nó đã được nâng cấp lên phiên bản mới nhất, VESTA 3, với các tính năng mới bao gồm vẽ hình thái bên ngoài của các tinh thể; chồng chéo nhiều mô hình cấu trúc, dữ liệu thể tích và mặt tinh thể; tính toán mật độ điện tử và hạt nh...... hiện toàn bộ
Tổng số: 5,237   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10